期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于语种相似性挖掘的神经机器翻译语料库扩充方法
李灿, 杨雅婷, 马玉鹏, 董瑞
《计算机应用》唯一官方网站    2021, 41 (11): 3145-3150.   DOI: 10.11772/j.issn.1001-9081.2020122039
摘要305)   HTML8)    PDF (759KB)(117)    收藏

针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 基于非自回归方法的维汉神经机器翻译
朱相荣, 王磊, 杨雅婷, 董瑞, 张俊
计算机应用    2020, 40 (7): 1891-1895.   DOI: 10.11772/j.issn.1001-9081.2019111974
摘要490)      PDF (1003KB)(404)    收藏
现有的基于循环神经网络、卷积神经网络和Transformer的自回归翻译模型,虽然都具有良好的翻译性能,但由于解码并行性较低导致了翻译速度慢的问题,针对这个问题提出一种基于非自回归模型的优化学习率策略的方法。在基于迭代优化的非自回归序列模型的基础上,改变学习率调节方法,即把warm up替换为liner annealing方法。首先评估出liner annealing优于warm up方法,然后将liner annealing应用于非自回归序列模型以得到翻译质量和解码速度的最优平衡,最后将该方法与自回归模型的方法作对比。实验结果表明该方法相较于自回归模型Transformer,当解码速度提升1.74倍时,翻译质量的双语评估替换(BLEU)分数值为41.31,可达到Transformer的95.34%。由此可见,采用liner annealing的非自回归序列模型,在降低少许翻译质量的条件下,能够有效地提升解码速度,适用于对翻译速度需求迫切的平台。
参考文献 | 相关文章 | 多维度评价
3. 面向汉维机器翻译的调序表重构模型
潘一荣, 李晓, 杨雅婷, 米成刚, 董瑞
计算机应用    2018, 38 (5): 1283-1288.   DOI: 10.11772/j.issn.1001-9081.2017102455
摘要621)      PDF (934KB)(515)    收藏
针对词汇化调序模型在机器翻译中存在的上下文无关性及稀疏性问题,提出了基于语义内容进行调序方向及概率预测的调序表重构模型。首先,使用连续分布式表示方法获取调序规则的特征向量;然后,通过循环神经网络(RNN)对于向量化表示的调序规则进行调序方向及概率预测;最后,过滤并重构调序表,赋予原始调序规则更加合理的调序概率分布值,提高调序模型中调序信息的准确度,同时降低调序表规模,提高后续解码速率。实验结果表明,将调序表重构模型应用至汉维机器翻译任务中,BLEU值可以获得0.39的提升。
参考文献 | 相关文章 | 多维度评价